Aside

Contacto

Objetivo

La intención es proporcionar un lenguaje mínimo para comenzar a practicar, indagar, y profundizar en el trabajo con datos.
Se cubrirán los temas que, a mi consideración, son los más importantes (e interesantes) para llevar a cabo un análisis de datos reproducible y en línea con buenas prácticas del ámbito.
No se pretende, de ninguna forma, que el curso sea suficiente para dar un conocimiento profundo.
En ese sentido, este temario, las sesiones, y el material adicional, fungen solo como un compendio y una galería de técnicas.

Disclaimer

Este temario fue realizado en R con pagedown.

Última actualización 2020-02-17.

Main

Herramientas de
análisis de datos

Curso breve de técnicas modernas de análisis

De una forma o de otra, es común enfrentarse con datos.
Este curso pretende ser una introducción de las diversas herramientas disponibles para su análisis.
Se cubrirá programación básica-intermedia en R y en Python, así como buenas prácticas para controlar versiones de código, datos, y modelos.

Temario

Introducción

Flujos de trabajo y pipelines
Lenguajes de programación
Editores de texto e IDEs
Control de versiones
Ambientes productivos
Dataframes vs. databases

N/A

2 horas

R

Editores e IDEs | RStudio, VS Code, Jupyter
APIs de manejo de datos | dplyr, data.table, base
Visualización de datos | ggplot2, ggforce, ggraph
Modelos | tidymodels
Comunicación de resultados | RMarkdown, Shiny

N/A

12 horas

Python

Editores e IDEs | Jupyter, VS Code
APIs de manejo de datos | pandas
Visualización de datos | seaborn, matplotlib
Modelos | scikit-learn
Comunicación de resultados | Jupyter

N/A

12 horas

Control de versiones

Código | git, GitHub, GitLab
Datos | DVC
Modelos | MLflow

N/A

5 horas

Temas adicionales

Makefiles | GNU Makefiles
Modelos en producción | Docker, Flask, Kubernetes, Dask, unittest, testthis, plumber
Análisis de redes | Neo4j

N/A

A disp. de tiempo

Información adicional

Audiencia

Cualquier persona con interés o necesidad de trabaja .
Cada sesión comenzará desde cero e irá construyendo hacia ejemplos de mayor complejidad.

N/A

Requisitos de sofware

Se usará R, Python, SQL y Bash para demostrar el uso de RStudio, Jupyter Lab/Notebook, MLflow, git, MLflow, DVB, PostgreSQL, GNU Makefiles, Docker, Flask, Kubernetes, Dask.
Para el material adicional, se necesitará la instalación de todas las herramientas.
Para las sesiones se harán ejemplos rápidos de la mayor parte de ellas, así que es posible solo instalar R, Python, git, RStudio, Jupyter Lab/Notebook y VS Code.

N/A

Conocimientos previos

No se necesita ningún conocimiento previo de las herramientas de software, pero sí será necesario conocimiento básico de inferencia estadística para las secciones de modelos.

N/A

Material

Toda será publicado en github.com/haro-ca/teaching/herramientas_iniciales, tanto código cubierto, como ejercicios y ejemplos adicionales.

N/A

Referencias

Libros

H. Wickham, G. Grolemund. “R for Data Science”. https://r4ds.had.co.nz/
Hadley Wickam. “Advanced R”. https://adv-r.hadley.nz/
Yihui Xie, J.J. Allaire, Garett Grolemund. “R Markdown”. https://bookdown.org/
Wes McKinney. “Python for data analysis”.
Richard McElreath. “Statistical Rethinking”.
Yifan Wu. “Is a dataframe just a table?”. http://yifanwu.net/

N/A

Blogs

Vincent Warmerdam. https://koaning.io y https://calmcode.io
Tom Augspurger. https://tomaugspurger.github.io/
Alex Ionnides. https://alexioannides.com/
Julia Silge. https://juliasilge.com/
Thomas P. Lindersen. https://www.data-imaginist.com/
Arturo Gonzales Bencomo. https://www.medium.com/arturo102964

N/A